AWS EMR
Amazon EMR は、Apache Spark、Apache Hive、Apache HBase、Apache Flink、Apache Hudi、Presto などのオープンソースのツールを使用して膨大な量のデータを処理するための業界をリードするビッグデータのクラウドプラットフォームです
実際には、Amazon EMRを使おうとすると
EMRのインフラとして「Amazon EC2」を起動して
Amazon EC2上に「Spark」などの分散処理基盤を構築し、 そのほかにも「分散処理(+分析)を行う上でよく使う仕組み」を準備して
分散処理ができる状態(=stay on)で待機する
上の説明を見ると「え…EC2から自分で作ればいいじゃん。EMRって必要?」となるtsawada.icon
必要。
https://gyazo.com/d29a6a2fb20c642887fc963f7203dcec
EMRは「EC2を自分で立ち上げて…自分で管理する」よりも3つの点で良いとのこと
高い品質
EMRは「最新のHadoop・Spark」を用意して待っている
Computing(処理部分)とStorage(Data置く場所)が分離しているため、それぞれ個別にスケーリングする
スケーリングとは「必要に合わせてserverが増えたり減ったりスケール(調整)する」こと
簡単
ワンタッチして数分待てば、Hadoop/Sparkが使える状態になる
Hadoopで必要なクラスタ(=処理部分)の調整も自動実行
低コスト
EMR実行時のみEC2 resourceを確保するためやすい